Box Plot, Histogram এবং Distribution Analysis

Machine Learning - নাইম (Knime) - ডেটা Visualization এবং Exploration
207

Box Plot, Histogram এবং Distribution Analysis হল ডেটা বিশ্লেষণের গুরুত্বপূর্ণ গ্রাফিক্যাল টুল, যা ডেটার বৈশিষ্ট্য এবং তার প্রকৃতি সম্পর্কে মূল্যবান তথ্য প্রদান করে। এগুলির প্রতিটি আলাদাভাবে ডেটা সংগ্রহ এবং বিশ্লেষণ করার জন্য ব্যবহৃত হয়, এবং ডেটা সায়েন্স, পরিসংখ্যান, এবং মেশিন লার্নিংয়ের প্রাথমিক পর্যায়ে খুবই গুরুত্বপূর্ণ।

১. Box Plot (বক্স প্লট)

Box Plot একটি পরিসংখ্যানিক গ্রাফ যা ডেটার মধ্যমণি, চতুর্থাংশ (quartiles), আউটলার (outliers), এবং বণ্টন (distribution) সম্পর্কে সারণী আকারে ধারণা দেয়। এটি বিশেষভাবে ডেটার ভ্যারিয়েন্স এবং আউটলার চিহ্নিত করতে সহায়ক।

Box Plot এর উপাদান:

  • মিডিয়ান (Median): বক্সের মাঝখানে একটি লাইন যা ডেটার মধ্যম মান নির্দেশ করে।
  • কোয়াটাইল (Quartiles):
    • Q1 (প্রথম কোয়াটাইল): ২৫% ডেটার নিচে।
    • Q3 (তৃতীয় কোয়াটাইল): ৭৫% ডেটার নিচে।
  • আই-কুইলার (Interquartile Range - IQR): Q1 এবং Q3 এর মধ্যে পার্থক্য।
  • আউটলার: Box plot এর বাইরে যেসব ডেটা পয়েন্ট চলে, সেগুলি আউটলার হিসাবে চিহ্নিত হয়।

Box Plot ব্যবহার:

  • ডেটার বণ্টন (distribution) পর্যালোচনা করা।
  • ডেটার মধ্যমণি, কোয়াটাইল এবং আউটলায়ার চিহ্নিত করা।
  • ডেটার স্ক্যাটার বা আউটলাইয়ার শনাক্ত করা।

২. Histogram (হিস্টোগ্রাম)

Histogram একটি চার্ট যা নির্দিষ্ট পরিসরে ডেটার ফ্রিকোয়েন্সি বা ঘনত্ব প্রদর্শন করে। এটি মূলত কন্টিনিউয়াস ডেটা (যেমন উচ্চতা, বয়স, তাপমাত্রা ইত্যাদি) বিশ্লেষণ করতে ব্যবহৃত হয়।

Histogram এর উপাদান:

  • বিন (Bin): এটি ডেটাকে বিভিন্ন ভাগে বিভক্ত করে এবং প্রতিটি ভাগের জন্য একটি কলাম তৈরি হয়। প্রতিটি কলামের উচ্চতা নির্দেশ করে ঐ নির্দিষ্ট বর্গের মধ্যে কতটি ডেটা পয়েন্ট রয়েছে।
  • ফ্রিকোয়েন্সি (Frequency): প্রতিটি বিন এর উচ্চতা ডেটার ঘনত্ব বা ফ্রিকোয়েন্সি নির্দেশ করে।

Histogram ব্যবহার:

  • ডেটার বণ্টন বা ডিসট্রিবিউশন (distribution) বুঝতে।
  • ডেটার সেন্ট্রাল টেন্ডেন্স, যেমন মিডিয়ান বা গড়, এবং স্প্রেড নির্ধারণ করতে।
  • ডেটার স্ক্যান বা স্কোয়ারযুক্ত প্রকৃতি বুঝতে (যেমন, সিমেট্রিক, নন-সিমেট্রিক, বা সঠিক সেন্ট্রালিটি)।

৩. Distribution Analysis (বণ্টন বিশ্লেষণ)

Distribution Analysis হলো ডেটার বণ্টন বা বিস্তার সম্পর্কে একটি গভীর বিশ্লেষণ। এটি বিভিন্ন ধরনের ডেটা ডিস্ট্রিবিউশন যেমন Normal Distribution, Uniform Distribution, Poisson Distribution, ইত্যাদির চেহারা এবং প্রভাব সম্পর্কে জানায়।

Common Distributions:

  1. Normal Distribution (গাউসিয়ান ডিস্ট্রিবিউশন):
    • এটি একটি সিমেট্রিক, বেল-আকৃতির বণ্টন, যেখানে ডেটার অধিকাংশ অংশ মধ্যবর্তী মানের চারপাশে কেন্দ্রীভূত হয়।
    • μ (মিডিয়ান) এবং σ (স্ট্যান্ডার্ড ডেভিয়েশন) দিয়ে এটি চিহ্নিত করা হয়।
  2. Uniform Distribution (একসারি বণ্টন):
    • যেখানে ডেটার সমস্ত মান সমানভাবে বিস্তৃত হয়।
  3. Poisson Distribution:
    • এটি একটি ডিসক্রিট ডিস্ট্রিবিউশন, যা একক সময়ে একটি নির্দিষ্ট ঘটনা ঘটার সম্ভাবনা নির্ধারণ করে।
  4. Exponential Distribution:
    • সাধারণত Poisson distribution-এর সঙ্গে সম্পর্কিত, এটি একটি ঘটনার পরবর্তী সময়ের জন্য উপযুক্ত।

Distribution Analysis ব্যবহার:

  • ডেটার প্রকৃতি চিহ্নিত করা: ডেটা নর্মাল, স্কিউড বা আউটলায়ারের মাধ্যমে তার প্রকৃতি চিহ্নিত করা।
  • স্ট্যাটিস্টিক্যাল টেস্টিং: ডেটার প্রকৃত বণ্টন জানলে নির্দিষ্ট পরিসংখ্যানিক পরীক্ষার মাধ্যমে সিদ্ধান্ত নেওয়া সহজ হয়। যেমন, Shapiro-Wilk বা Anderson-Darling টেস্ট ব্যবহার করে নর্মালিটি পরীক্ষা করা।

Box Plot, Histogram এবং Distribution Analysis এর মধ্যে সম্পর্ক:

  1. Distribution Analysis প্রাথমিকভাবে Histogram এবং Box Plot এর মাধ্যমে ডেটার বৈশিষ্ট্য বিশ্লেষণ করতে সহায়ক।
  2. Histogram সাধারণত ডেটার প্রাথমিক বণ্টন দেখায়, যা পরে Box Plot-এ আরও বিশদভাবে বিশ্লেষণ করা হয়, যেমন আউটলাইয়ার (outliers) এবং কোয়াটাইল (quartiles)।
  3. Box Plot ডেটার বণ্টনের স্কেল এবং আউটলাইয়ার সম্পর্কে সরাসরি ধারণা দেয়, যেখানে Histogram ডেটার ঘনত্ব এবং বিস্তার দেখায়।

সারাংশ

  • Box Plot ডেটার বণ্টন, মিডিয়ান এবং আউটলাইয়ার চিহ্নিত করতে সাহায্য করে।
  • Histogram ডেটার ফ্রিকোয়েন্সি বণ্টন দেখায়, যা ডেটার সেন্ট্রাল টেন্ডেন্স এবং স্প্রেড বুঝতে সাহায্য করে।
  • Distribution Analysis ডেটার বণ্টন চিহ্নিত করার মাধ্যমে বিভিন্ন স্ট্যাটিস্টিক্যাল বিশ্লেষণ করতে সাহায্য করে।

এই গ্রাফিক্যাল টুলগুলির মাধ্যমে আপনি ডেটার বিস্তার, বৈশিষ্ট্য এবং বিশেষত্ব বুঝতে পারবেন, যা ডেটা সায়েন্স এবং পরিসংখ্যানিক বিশ্লেষণের জন্য গুরুত্বপূর্ণ।

Content added By
Promotion
NEW SATT AI এখন আপনাকে সাহায্য করতে পারে।

Are you sure to start over?

Loading...